第1章 異星人の心を想像する
最近のAIブームは2010年の「データの分析と予測に機械学習技術を活用できるという予測」から
教師あり学習
ラベル付きデータが必要
音声認識システムや翻訳アプリ
ホテルの需要予測
直感→AIアルゴリズムの導入による統計的な分析と分散の最小化にシフト
アマゾンの予測AI
需要予測
倉庫レイアウトの最適化
商品の配送
予測AIの限界
直感的な理解
学んでいないデータは苦手
テキストの理解や生成能力の限界
「アテンションこそすべて(Attention Is All You Need)」
Google、2017年
トランスフォーマーという名の新しいアーキテクチャ
コンピュータに言語を理解させる方法
「アテンション・メカニズム」を活用し、テキストの最も重要な部分に集中可能に
テキストのブロックごとに、単語やフレーズの重要性を順位づけ可能に
大規模言語モデル(LLM)
大規模言語モデル(LLM)の予測 → テキストの一部を分析し、次のトークンを予測
LLMの事前学習
大量のテキストを使ってトレーニングを行う
教師なし学習
入力されたテキストを分析し、言語のパターン・構造・文脈を学ぶ
LLMは膨大な数の調整パラメータ(重み)を用いて人間の言語を通じたコミュニケーションのやり方を模倣するモデルを創造する
オリジナルのChatGPT、1750億個の重みを搭載
重みは、さまざまな単語が、一緒に出てくる可能性、特定の順序で出てくる可能性の高さをエンコードしている
データソースの多様化により、学習による偏見や誤り、虚偽を学ぶ可能性
法的、倫理的に問題のある返答を返す可能性も
微調整と呼ばれる第二段階によるさらなる改善
ここまで自動化されていたプロセスに人間が参加
ケニアなどの英語圏で低賃金な国で契約社員を雇い、AIの回答に対して、さまざまな指標で評価
暴力的、性的な回答などの選別も行われる
「人間のフィードバックによる強化学習(Reinforment Learning from Human Feedback, RLHF)」
言語 x 画像生成の可能性
ミッドジャーニー
DALL-E
画像とその内容の説明文の組み合わせを大量に分析 → 文章と視覚的な概念を関連づけ
拡散モデル
LLMも画像を見ることと生成すること、どちらも可能
マルチモーダルLLM
文章の処理にトランスフォーマーアーキテクチャを利用、画像処理に追加コンポーネントを利用
GPT-3.5と呼ばれるGPT-3の改良版LLMを搭載したChatGPTがリリース
人間らしく見える能力
能力が不明瞭なAI
フロンティアモデルのAIは、単なる予測モデルであるにも関わらず、プログラムされていな事をやってのけるように見える → 創発と呼ばれる概念
LLMの奇妙な短所
三目並べ
ある時は期待値を超え、ある時は捏造により失望させる
学習能力はあるが、時々重要な情報を誤って覚えている
まるで人間のようにフルマグが、完全に人間的ではない行動するAI
意識を持っているように見えて、実際には(私たちが知る限りは)持っていない
アライメント問題
人類と利益めんえ価値観が一致するようなAIをどう作るか?